Item Response Theory

Современная теория тестирования (англ. Item Response Theory) — (иногда по-русски — Современная теория тестов, Теория ответов на задания, Теория моделирования и параметризации педагогических тестов) набор методов, позволяющий оценить вероятность правильного ответа испытуемых на задания различной трудности. Она используется для того чтобы избавиться от плохих (неинформативных) вопросов в опроснике, оценки взаимосвязи латентных конструктов между собой и с наблюдаемыми переменными, оптимизации предъявления заданий респондентам, и т. д. В русском языке название Item Response Theory переводится различным образом. Ю.Нейман и В.Хлебников предлагают называть её «Теория моделирования и параметризации педагогических тестов» (ТМППТ)^[1]. В.Аванесов — «Математико-статистическая теория оценки латентных параметров заданий теста и уровня подготовленности испытуемых»^[2]. Однако одним из наиболее удачных способов перевода является «современная теория тестирования», поскольку её модели описывают не тестовые задания и не тест сам по себе, а результат (а многие современные модели — и процесс) взаимодействия респондентов и заданий.

В психометрике современная теория тестирования (IRT) является парадигмой для проектирования, анализа и оценки тестов, опросников и подобных измерительных инструментов. Эта теория тестирования предполагает, что существует взаимосвязь между модельной предсказуемостью ответов на задание и общим качеством знания. Для того, чтобы оценить целевые параметры заданий и респондентов используются различные статистические модели^[3]. В отличие от более простых альтернатив для создания шкал и оценки ответов на опросники, современная теория тестирования не предполагает, что каждый вопрос одинаково трудный. Это отличает IRT от, например, предположения Ликерта в шкалировании о том, что «все задания считаются репликациями друг друга или другими словами: задания считаются взаимозаменяемыми»^[4]. Напротив, современная теория тестирования рассматривает параметры каждого задания (задающие ICC (Item Characteristic Curve) — характеристическую кривую задания) как информацию, которая должна быть включена в калибровку модели.

Таким образом, IRT моделирует вероятность ответа каждого респондента на каждое задание теста. Фундаментальной характеристикой современной теории тестирования и ключевым её определением является идея разделения параметров респондентов и заданий. То есть, вероятность правильного ответа на задание является результатом взаимодействия латентных параметров респондента и задания. Конкретный способ их взаимодействия определяется допущениями исследователя и транслируется в уравнение конкретной математической функции — модели современной теории тестирования.

Модели современной теории тестирования тесно связаны с конфирматорным факторным анализом, обобщенными линейными моделями смешанных эффектов, сетевыми моделями из статистической физики (полями Маркова и моделью Изинга), и отдельными методами наук о данных (модельными методами коллаборативной фильтрации и ограниченными машинами Больцмана). Современные модели IRT позволяют моделировать новые источники информации (например, время ответов, попытки решения заданий); комплексные нелинейные (например, потолочные) зависимости между различными латентными переменными; моделировать эффекты рейтеров, которые начисляют баллы за открытые ответы (и позволяют достигать инвариантности итоговых оценок способности относительно рейтера); моделировать композитные и многомерные конструкты; моделировать изменения в уровне латентной переменной во времени; использовать дискретные оценки способности, превращающие модель ранжирования в классификатор, и т. д. На сегодняшний день, IRT — одна из самых передовых и теоретически обоснованных областей вычислительных наук о поведении.

↑ Нейман Ю. М., Хлебников В. А. Введение в теорию моделирования и параметризации педагогических тестов. -М.: Прометей, −169 с. Архивированная копия (неопр.). Дата обращения: 3 июня 2017. Архивировано 4 июня 2017 года.
↑ Аванесов В. С. Применение тестовых форм в Rasch Measurement // Педагогические измерения, 2005, № 4. -С.3-20. Архивированная копия (неопр.). Дата обращения: 3 июня 2017. Архивировано 4 июня 2017 года.
↑ National Council on Measurement in Education http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorI Архивная копия от 22 июля 2017 на Wayback Machine
↑ A. van Alphen, R. Halfens, A. Hasman and T. Imbos. (1994). Likert or Rasch? Nothing is more applicable than good theory. Journal of Advanced Nursing. 20, 196—201

[1] Нейман Ю. М., Хлебников В. А. Введение в теорию моделирования и параметризации педагогических тестов. -М.: Прометей, −169 с. Архивированная копия (неопр.). Дата обращения: 3 июня 2017. Архивировано 4 июня 2017 года.

[uss.dvfu.ru-2] Аванесов В. С. Применение тестовых форм в Rasch Measurement // Педагогические измерения, 2005, № 4. -С.3-20. Архивированная копия (неопр.). Дата обращения: 3 июня 2017. Архивировано 4 июня 2017 года.

[3] National Council on Measurement in Education http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorI Архивная копия от 22 июля 2017 на Wayback Machine

[4] A. van Alphen, R. Halfens, A. Hasman and T. Imbos. (1994). Likert or Rasch? Nothing is more applicable than good theory. Journal of Advanced Nursing. 20, 196—201

[1]

[2]

[3]

[4]